聚类分析:一种无监督学习/统计方法,用来把数据按相似性自动分组(形成“簇”),使同一组内更相似、不同组之间差异更大。也常用于探索数据结构、客户细分、文本主题发现等。
/ˈklʌstər əˈnæləsɪs/
We used cluster analysis to group customers by shopping habits.
我们用聚类分析按购物习惯给顾客分组。
Using cluster analysis on gene-expression data, the researchers identified several distinct subtypes that were not obvious from traditional labels.
研究人员对基因表达数据进行聚类分析,识别出若干传统标签下并不明显的不同亚型。
cluster 源自古英语 clyster,本义是“成串/一簇的东西”;analysis 源自希腊语 analysis,意为“分解、拆解”。合起来的 cluster analysis 字面即“对(数据)簇的分析/通过分析形成簇”,在统计学与机器学习语境中专指“按相似性自动分组”的方法。